最小二乘法:背后的假设和原理(前篇)
戳上面的蓝字关注我们!
作者:alg-flody
编辑:Emily
1 线性回归的例子
我们接下来要预测房屋的价值,其中考虑的特征包括房屋的面积,和房屋的已使用年限。如下图所示的4条样本:
房屋面积 | 使用年限 | 房屋价值 |
---|---|---|
85.17 | 5 | 68 |
120 | 12 | 130 |
102 | 6 | 104 |
59 | 3 | 49 |
现在,一个房屋面积为78,使用年限为4年的房屋,根据上表提示的数据预测下这个房屋的价值,这是我们的目标。
考虑:房屋面积和使用年限都会影响房屋的价值,不过我们现在还不知道它们各自对价值有多大的影响?
此时我们预测的房屋价值是一个连续值,因此回归得到的是一个值,这是一个典型的二元回归问题,如果要从线性回归入手,就是二元线性回归。通俗点说就是找到一个面(x1, x2)能很好的拟合(y房屋价值)以上4个样本。
2 建立模型
先从最简单的线性回归思路出发,这也是机器学习的基本思路,从最简单的模型入手。
假设
要习惯用矩阵的表达,上面这个求和公式用矩阵表达为:
其中 ,
3 完整求解思路
3.1 求解误差
在假设了以上的模型后,接下来最重要的是求解方程中的3个参数,其中第一个参数为偏置项。
我们知道预测值和真实值之间一般是存在误差的,误差值用
其中,
问题来了,误差的分布情况可以是任意的吗,还是需要满足某种分布规律才行?
3.2 误差分布假定
以上这个问题是非常重要的,如果误差分布没有满足某个规律,这个就很难做出预测了,因为它没有规律啊!
所以我们假设任何一个样本的误差项满足独立同分布,并且服从均值为0方差为一定值的高斯分布。
至于什么是独立,什么是高斯分布,大家可以参考本公众号推送的知识储备系列,公式如下:
在做出这个假定,分布服从高斯分布后,我们就可以将误差项直接带入一维高斯分布的公式中。
然后将 误差项:
上式中的 x 和 y,方差都是已知量,f为概率的取值,那么,由这个公式该如何求解参数
3.3 似然函数求参数
是的,似然函数的确是求解类似问题的常用解决方法,包括以后的解决其他模型的参数,也有可能用到似然函数。
如果对似然函数无感觉,那么也请看一下明天推送的知识储备系列文章,一看您就明白了。
预知借助似然函数的相关理论求解权重参数,请看明天的推送,谢谢您的阅读。
主要推送关于算法的分析过程及应用的消息。培养思维能力,注重过程,挖掘背后的原理,刨根问底。本着严谨和准确的态度,目标是撰写实用和启发性的文章,欢迎您的关注。